首页> 外文OA文献 >Implementasi Directed Acyclic Word Graph Dengan Menggunakan Algoritma Blow the Bridge Pada Web Crawler Untuk Indexing Web
【2h】

Implementasi Directed Acyclic Word Graph Dengan Menggunakan Algoritma Blow the Bridge Pada Web Crawler Untuk Indexing Web

机译:Web爬网程序中使用Blow Bridge算法实现有向无环字图的Web索引编制

摘要

Dengan kemungkinan begitu banyaknya kata yang kembar atau sama dalamsebuah halaman web, pemeriksaan setiap kata yang kembar dengan memanfaatkanpemeriksaan dalam database secara teori akan membuat kinerja tueb crawlingmenjadi kurang efektif. Oleh karenanya, kata-kata yang terdapat dalam sebuahhalaman web perlu untuk diperiksa dan dipilah dalam memori utama denganmemanfaatk an Directed Acy clic Word Graph sebelum masuk pada database sebagaidaftar kata. Analisis dilakukan pada dat a-dala indexing web dan kecepat an searchinguntuk melihat potensi Directed Acy clic Word Graph pada 5oo dokumen web yang adadi internet. Kesimpulan yang diperoleh antara lain, penggunaan Directed AcyclicWord Graph pada 5oo dokumen yang diujicobakan dapat menghemat jumlah katahinggahampir g6%odarijumlah data semula, sedangkan pencariankatapadaDirectedAcyclic Word Graph dipengaruhi oleh faktor-faktor seperti kecepatan perangkatkeras, jumlah URLyang ditemukan, panjangkatayangdicari, dan sering atautidaknyakata tersebut muncul pada satu kedalaman tertentu.
机译:由于网页中可能有太多双胞胎或相等的单词,因此理论上通过利用数据库中的检查来检查每个双胞胎单词将使tueb爬行性能的效率降低。因此,在将数据库作为单词列表输入数据库之前,需要使用Directed Acy Word Graph对网页中包含的单词进行检查和排序。对Web索引数据和搜索速度进行了分析,以查看Internet上5oo Web文档上潜在的Directed Active Word Graph。除其他外,获得的结论包括,在经过测试的5oo文档中使用有向无环词图可以节省几乎原始数据量的6%的单词数,而有向无环词图的搜索受以下因素影响,例如设备的硬度,找到的URL数量,搜索的时间长度以及数据是否经常出现在Word中。一定深度

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号